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摘 要 : 由 于 美食 推荐 的 实时 需要 ,本 研究 提出 一 套 基于 网 络 评论 的 美食 推荐 系统 ,以 提供 各 家 餐厅 的 介绍 与 评论 摘要 。 其 中 ， 
美食 推荐 系统 主要 提供 功能 包括 有 网 页 内 容 括 取 机 器 人 、 多 文本 自动 摘要 技术 ， 以 自动 括 取 相关 的 评论 和 部 落 格 文章 ， 并 自 
动 提取 出 重要 的 评论 句 。 最 后 ,美食 推荐 系统 结合 云 计算 技术 ,为 多 文本 自动 摘要 技术 建立 并 行 运 算 以 实时 提供 美食 评论 服务 。 
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导语 

近年 来 ， 随 着 人 民生 活 质量 逐渐 提高 ， 人 们 对 于 美 
食 也 越 加 讲究 ， 不 仅 食 物 要 满足 顾客 的 味蕾 ， 服 务 与 价 
格 也 要 符合 顾客 的 期 望 。" 虽然 现今 网 络 已 非常 普及 ， 
人 人 都 可 以 在 网 络 上 分 享 自己 的 用 和 餐 经验 ， 然 而 面 对 众 
多 来 源 的 评语 ， 要 能 快速 且 正 确 地 认识 一 家 餐厅 仍 是 一 
件 困难 的 事 。 

基于 美食 推荐 的 实时 需要 ， 文 章 提出 一 套 基 于 网 络 
评论 的 美食 推荐 系统 “ 食 况 转播 系统 ”， 以 提供 各 家 和 餐 
厅 之 介绍 与 评论 摘要 。 让 人 们 可 以 快速 决定 最 佳 的 用 和 餐 
地 点 , 甚至 在 陌生 的 环境 , 也 能 避免 “ 躁 雷 ” 的 情况 发 生 。 
1. 系统 设计 

本 研究 所 设计 的 “ 食 况 转播 系统 ”所 提供 功能 包括 : 
网 页 内 容 搬 取 机 带 人 、 多 文本 自动 摘要 技术 ( Multiple 
Document Summarization, MDS ) 中 、 云 计算 技术 等 设计 。 

通过 网 页 内 容 撒 取 机 絮 人 用 百度 等 搜索 引擎 对 网 页 
相关 信息 进行 搜寻 ， 于 各 个 网 页 中 找寻 相关 美食 评论 信 
息 ， 揪 取 机 器 人 子 系统 将 其 朴 行 (Crawl ) 数据 和 经 过 剖 
析 (Parse ) 后 ， 将 相关 的 信息 存 为 Blog Corpus。 最 后 ， 
再 利用 多 文本 自动 摘要 技术 ， 将 相关 网 页 Corpus 中 的 美 
食 评 论 搬 取出 来 ， 并 制 成 摘要 形式 ， 提 供给 用 户 饮食 决 
策 参 考 ， 用 户 可 以 通过 本 系统 所 设计 的 人 机 接口 进行 查 
询 ， 整 体系 统 处 理 之 流程 如 图 1 所 示 。 
1.1 网 页 内 容 搬 取 机 器 人 

网 页 内 容 揪 取 机 器 人 主要 提供 有 模糊 搜寻 机 制 、 
网 页 肘 虫 (HITML Crawler ) ， 以 及 网 页 剖析 露 (HTML 
Parser ) 等 功能 ， 各 功能 说 明 分 述 如 下 。 
1.1.1 模糊 搜寻 机 制 

模糊 搜寻 机 制 提供 模糊 运算 与 判断 ， 建 立 搜寻 相关 


的 关键 词 字库 ， 以 关键 词 字库 内 容 主动 向 百度 搜寻 进行 
搜寻 。 
1.1.2 网 页 爬 束 
网 页 仆 虫 将 百度 搜寻 后 结果 ( 如 回 传 的 各 个 网 页 内 
容 ) 进行 仆 行 ， 追踪 相关 连结 网 页 并 将 HTML 内 容 暂 
存 。 
1.1.3 网 页 剖析 器 
网 页 剖析 器 将 网 页 爬虫 取得 的 网 页 进行 HTML tag 解 
读 ， 取 得 主要 信息 ， 并 有 效 去 除 相 关 特 殊 字 符 〈 如 单 引 
号 和 双 引 号 ) 和 避免 数据 库 隐 码 攻击 等 问题 ， 建 立 Web 
Corpus 以 利 后 续 之 多 文本 自动 摘要 之 推论 。 
1.2 多 文本 自动 摘要 技术 
“ 食 况 转播 系统 ”结合 多 文本 自动 摘要 技术 ， 实 时 
将 各 个 网 页 中 相关 美食 网 站 的 评论 进行 自动 摘要 ， 有 效 
减少 信息 量 ， 提 取出 重点 评论 摘要 ， 让 使 用 者 能 快速 浏 
览 过 去 吃 过 该 餐厅 或 美食 消费 者 的 看 法 与 经 验 。 
多 文本 自动 摘要 技术 主要 参考 MEAD 套件 进行 系 
统 实践 ， 将 网 页 Corpus 中 相关 之 美食 评论 输入 至 自动 摘 
要 模块 中 ， 并 由 于 数据 庞大 需 有 效 和 快速 的 平行 运算 ， 
故 将 把 此 模块 实践 于 Hadoop 平台 中 ， 并 以 MapReduce 进 
行 实践 ， 其 通过 数据 预先 处 理 ( Preprocess ) 、 特 征 选取 
( Feature Selected ) 、 分 类 央 (Classifier ) 、 重 新 排序 器 
( Reranker ) 、 产 出 摘要 ( Summery ) 等 步骤 进行 自动 摘 
要 提取 ， 详 细 功能 设计 分 述 如 下 。 
1.2.1 数据 预先 处 理 
将 网 页 内 容 播 取 机 器 人 处 理 后 的 HTML 进行 搬 取 ， 
并 依 序 定义 各 个 文章 ( Document ) 编号 和 语句 ( Sentence ) 
编号 ， 以 进行 各 语句 权重 计算 和 摘要 产生 。 
1.2.2 特征 选取 
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9 图 1 食 况 转播 系统 流程 图 
OO v7 人 
本 “ 食 况 转播 系统 ”主要 采用 主题 字 词 (Thematic ”分 类 器 主要 在 于 做 加 权 总 和 ， 计 算出 各 个 语句 的 权重 ， 
| Words ) 和 评论 字 词 ( Comments Terms ) 两 个 特征 ( Feature ) 计算 方式 如 公式 (3 ) 所 示 。 
进行 字 词 子 句 的 权重 计算 。 
S 让 F(s)= (5)x f(s) C3 
> 计算 某 个 语句 的 主题 字 词 出 现 的 次 数 ， 当 出 现 的 次 ” 1.2.4 重新 排序 器 
S< 数 越 多 则 代表 该 语句 与 目标 主题 的 关系 越 强 烈 。 外 对 于 主要 在 于 重新 计算 语句 与 语句 之 间 的 相似 度 ， 并 设 
人 评论 文件 中 的 第 i 个 语句 si 而 言 ， 该 语句 si 共 包 含 mi 个 是 门 坎 值 以 进行 过 滤 ， 取 出 重要 且 彼 此 之 间 相 似 度 不 会 
. 生 字 词 w， 主 题字 词 评 分 计算 方式 如 公式 (1 ) 所 示 。 太 高 的 语句 ， 最 后 再 依 设 定 的 压缩 率 进 行 提 取 ( extract ) 。 
2 和 1.2.5 产 出 摘要 
© A lie 将 重新 排序 器 所 提取 出 的 语句 顺序 ， 依 数据 预先 处 


1 
| word w,; ins and w, , e 主 题字 2 


ty 0, otherwise 
1.2.2.2 评论 字 词 

计算 某 个 语句 的 评论 字 词 出 现 的 次 数 ， 当 出 现 的 次 
数 越 多 则 代表 该 语句 越 具 评 论 意义 。m 对 于 评论 文件 中 
的 第 i 个 语句 si 而 言 ， 该 语句 si 共 包 含 mi 个 字 词 w， 评 
论 字 词 评分 计算 方式 如 公式 (2 ) 所 示 。 


£(s,) 1+ Yb, where 
痊 


1, word w,; ins and w; ; e 评论 字 词 (2) 
a 0,otherwise 
1.2.3 分 类 器 


就 每 个 特征 来 讨论 , 每 个 特征 的 重要 程度 有 所 不 同 ， 


理 之 文章 (Document ) 编号 、 语 句 (Sentence ) 编号 和 原 
台 评 论文 件 进行 对 应 (Mapping ) ， 取 得 多 评论 自动 摘要 
内 容 , 并 把 最 后 结果 产 出 ， 提 供给 使 用 者 快速 浏览 参考 。 
1.3 云 计算 技术 

网 络 充斥 着 大 量 且 繁杂 的 网 页 内 容 ， 当 分 析 网 页 内 
容 时 将 会 因为 网 页 数量 和 内 文 数量 而 造成 的 大 量 运算 。 
由 于 执行 效能 考虑 ， 文 章 将 采用 云 计 算 进 行 平行 处 理 ， 
以 Hadoop 平台 进行 实践 (Chen et al.，2012 ) ， 将 每 篇 
评论 文章 的 语句 分 别 执行 ， 以 快速 地 计算 每 个 语句 的 分 
数 ， 并 取得 最 重要 的 语句 ， 提 供 使 用 者 决策 参考 。 
2. 系统 实践 

本 研究 设计 的 系统 可 提供 给 一 般 民众 使 用 ， 使 用 者 
可 以 通过 手机 连结 至 “ 食 况 转播 系统 ”， 再 由 系统 提供 
各 家 餐厅 的 介绍 与 评论 摘要 。 让 人 们 可 以 快速 地 决定 最 
佳 的 用 餐 地 点 ， 甚 至 在 陌生 的 环境 ， 也 能 避免 误 ” 踩 地 
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雷 “ 的 情况 发 生 。 

“ 食 况 转播 系统 ”中 ， 使 用 者 端 可 达到 各 个 美食 
餐厅 的 简介 、 各 个 美食 的 相关 评论 。 本 研究 通过 网 页 
内 容 皂 取 机 器 人 搬 取 相关 的 美食 评论 文章 ， 并 通过 多 
文本 自动 摘要 技术 提供 美食 评论 摘要 ， 以 提供 使 用 者 
饮食 决策 参考 。 如 图 2 所 示 ， 使 用 者 可 输入 欲 查 询 的 
店家 名 称 ， 以 搜寻 该 店家 的 相关 美食 评论 摘要 ， 以 下 
以 “ 夏 昔 尼 ”为 例 进 行 说 明 。 当 使 用 者 输入 店家 名 称 ， 
并 点 击 “ 美 食 评 论 ” 时 ， 提 供 该 店家 过 去 消费 过 的 使 
用 者 经 验 ， 并 进行 文本 自动 摘要 ， 通 过 算法 摘录 出 重 


要 的 评论 语句 ， 让 使 用 者 可 以 快速 地 进行 决策 参考 ， 
如 图 3 所 示 。 最 后 ， 提 供 地 图 导 览 功能 ( 如 图 4 所 示 ) 
引导 消费 家 前 往 餐 厅 。 


食 沉 圭 播 系 统 Eee 
人 夏 莫 尼 -美食 评论 


合 : 
已 民 况 转 播 系统 万 汶 搭 德 包 ， 超 好 吃 的 啦 


除了 搭 薄 果 外 ， 泪 蒜 味 美 奶 滋 也 


pe 超 好 吃 啊 

恰 入 以 测 之 让 家 名 | 第 三 道 - 渴 品 -海鲜 江 渴 -里 面 有 很 
多 海鲜 料理 有 晶 子 、 花 枝 ， 措 配 

样 ， 如 果 之 前 的 二 包 各 未 吃 

攻 完 ， 拿 来 沾 这 满 渴 更 好 吃 喔 

一 -一 新 包 可 以 搭配 旁 超 的 沾 区 或 是 奶 

油 吃 ， 刚 烤 出 炊 超 香 超 软 超 好 

吃 ! ! 吃 不 够 通 可 以 无 限 续 

喔 1 ! 


看 起 来 真 的 很 好 吃 耶 ! ”我 也 想 
赶快 去 吃 


图 2 


图 4 地 图 导 览 画面 


本 研究 着 重 于 使 用 者 对 餐厅 选择 的 决策 需要 ， 发展 
一 套 基 于 网 络 评论 的 美食 推荐 系统 “ 食 况 转播 系统 ”， 
结合 人 工 智能 和 信息 检索 技术 ， 从 “传媒 ”向 “ 智 媒 ” 
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转变 “"， 搜 集 并 统计 餐厅 相关 信息 的 推荐 ， 并 结合 餐厅 
介绍 与 相关 评论 ， 将 网 络 信息 (例如 : 博客 、 爱 评 网 、 
以 及 Blog 等 相关 美食 评论 ) 进行 自动 摘要 处 理 ， 供 使 用 
者 快速 认识 该 餐厅 ， 评 佑 是 否 合适 作为 用 餐 地 点 。 未 来 
可 以 尝试 将 此 系统 模型 应 用 于 各 行 各 业 的 评论 摘要 和 推 
荐 信息 中 ， 例 如 旅游 业 。 辕 
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